智能论文笔记

ScanQA: 3D Question Answering for Spatial Scene Understanding

Daichi Azuma , Taiki Miyanishi , Shuhei Kurita , Motoki Kawanabe

分类：计算机视觉

2021-12-20

我们提出了一项新的3D问题答案的3D空间理解任务（3D-QA）。在3D-QA任务中，模型从丰富的RGB-D室内扫描的整个3D场景接收视觉信息，并回答关于3D场景的给定文本问题。与VQA的2D答案不同，传统的2D-QA模型遭受了对对象对齐和方向的空间理解的问题，并且从3D-QA中的文本问题中失败了对象本地化。我们为3D-QA提出了一个名为ScanQA模型的3D-QA基线模型，其中模型从3D对象提案和编码的句子嵌入中获取融合描述符。该学习描述符将语言表达式与3D扫描的底层几何特征相关联，并促进3D边界框的回归以确定文本问题中的描述对象。我们收集了人类编辑的问题答案对，自由表格答案将接地为3D场景中的3D对象。我们的新ScanQA数据集包含来自Scannet DataSet的800个室内场景的超过41K问答对。据我们所知，ScanQA是第一个在3D环境中执行对象接地的问答的大规模工作。

translated by 谷歌翻译

Learned k-NN Distance Estimation

Daichi Amagata , Yusuke Arai , Sumio Fujita , Takahiro Hara

分类：人工智能 | 机器学习

2022-08-29

众所周知，大数据挖掘是数据科学的重要任务，因为它可以提供有用的观察结果和隐藏在给定的大数据集中的新知识。基于接近性的数据分析尤其在许多现实生活中使用。在这样的分析中，通常采用了与K最近的邻居的距离，因此其主瓶颈来自数据检索。为提高这些分析的效率做出了许多努力。但是，他们仍然会产生巨大的成本，因为它们基本上需要许多数据访问。为了避免此问题，我们提出了一种机器学习技术，该技术可以快速准确地估算给定查询的K-NN距离（即与K最近的邻居的距离）。我们训练完全连接的神经网络模型，并利用枢轴来实现准确的估计。我们的模型旨在具有有用的优势：它一次不距离K-NN，其推理时间为O（1）（未产生数据访问），但保持高精度。我们对实际数据集的实验结果和案例研究证明了解决方案的效率和有效性。

translated by 谷歌翻译

PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for Perturbation-Robust Slot Filling

Guanting Dong , Daichi Guo , Liwen Wang , Xuefeng Li , Zechen Wang , Chen Zeng , Keqing He , Jinzheng Zhao , Hao Lei , Xinyue Cui

分类：自然语言处理

2022-08-24

大多数现有的插槽填充模型倾向于记住实体的固有模式和培训数据中相应的上下文。但是，这些模型在暴露于口语语言扰动或实践中的变化时会导致系统故障或不良输出。我们提出了一种扰动的语义结构意识转移方法，用于训练扰动插槽填充模型。具体而言，我们介绍了两种基于传销的培训策略，以分别从无监督的语言扰动语料库中分别学习上下文语义结构和单词分布。然后，我们将从上游训练过程学到的语义知识转移到原始样本中，并通过一致性处理过滤生成的数据。这些程序旨在增强老虎机填充模型的鲁棒性。实验结果表明，我们的方法始终优于先前的基本方法，并获得强有力的概括，同时阻止模型记住实体和环境的固有模式。

translated by 谷歌翻译

NRBdMF: A recommendation algorithm for predicting drug effects considering directionality

Iori Azuma , Tadahaya Mizuno , Hiroyuki Kusuhara

分类：机器学习

2022-08-05

根据有关批准药物的信息预测药物的新作用可以被视为推荐系统。矩阵分解是最常用的推荐系统之一，为其设计了各种算法。用于预测药物效应的现有算法的文献调查和摘要表明，大多数此类方法，包括邻里正规逻辑矩阵分解，这是基准测试中最佳性能的最佳性能，它使用了仅考虑存在或不存在相互作用的二进制矩阵。但是，已知药物作用具有两个相反的方面，例如副作用和治疗作用。在本研究中，我们建议使用邻域正规化双向基质分解（NRBDMF）通过纳入双向性来预测药物作用，这是药物效应的特征。我们使用这种建议的方法使用矩阵来预测副作用，该基质考虑了药物效应的双向，其中已知的副作用被分配为阳性标签（加1），并为已知的治疗效应分配了阴性（负1）标签。使用药物双向信息的NRBDMF模型在预测列表的底部达到了副作用的富集和指示。第一次尝试使用NRBDMF来考虑药物效应的双向性质的尝试表明，它降低了假阳性并产生了高度可解释的输出。

translated by 谷歌翻译

Deepfake Video Detection with Spatiotemporal Dropout Transformer

Daichi Zhang , Fanzhao Lin , Yingying Hua , Pengju Wang , Dan Zeng , Shiming Ge

分类：计算机视觉 | 人工智能

2022-07-14

尽管最近对Deepfake技术的滥用引起了严重的关注，但由于每个帧的光真逼真的合成，如何检测DeepFake视频仍然是一个挑战。现有的图像级方法通常集中在单个框架上，而忽略了深击视频中隐藏的时空提示，从而导致概括和稳健性差。视频级检测器的关键是完全利用DeepFake视频中不同框架的当地面部区域分布在当地面部区域中的时空不一致。受此启发，本文提出了一种简单而有效的补丁级方法，以通过时空辍学变压器促进深击视频检测。该方法将每个输入视频重组成贴片袋，然后将其馈入视觉变压器以实现强大的表示。具体而言，提出了时空辍学操作，以充分探索斑块级时空提示，并作为有效的数据增强，以进一步增强模型的鲁棒性和泛化能力。该操作是灵活的，可以轻松地插入现有的视觉变压器中。广泛的实验证明了我们对25种具有令人印象深刻的鲁棒性，可推广性和表示能力的最先进的方法的有效性。

translated by 谷歌翻译

Features of a Splashing Drop on a Solid Surface and the Temporal Evolution extracted through Image-Sequence Classification using an Interpretable Feedforward Neural Network

Jingzu Yee , Daichi Igarashi , Akinori Yamanaka , Yoshiyuki Tagawa

分类：计算机视觉 | 机器学习

2022-07-03

本文报告了在固体表面上溅出的滴滴和时间演化的特征，这些特征是通过图像序列分类提取的，使用高度可解释的前馈神经网络（FNN），其隐藏层为零。用于训练验证和测试FNN的图像序列显示了毫米大小的乙醇滴的早期变形，这些乙醇液滴会影响亲水性玻璃基材，Weber数量范围为31-474（溅出阈值约为173）。进行特定的摄像条件和数字图像处理，以确保图像序列之间的高相似性。结果，受过训练的FNN的测试精度高于96％。值得注意的是，该特征提取表明，受过训练的FNN鉴定出空气动力学上升起的二滴液滴的时间演变，而主体的相对较高的轮廓是溅出的特征，而相对较短的薄片则是相对较短而厚的薄片。非挡板滴的功能。除了溅到和非挡块滴剂之间主体的轮廓高度的差异外，已经确定了这些特征的物理解释及其各自的时间进化。这项研究中报道的观察结果对于开发数据驱动的模拟很重要，以建模对固体表面撞击期间溅出的滴落变形。

translated by 谷歌翻译

GenéLive! Generating Rhythm Actions in Love Live!

Atsushi Takada , Daichi Yamazaki , Likun Liu , Yudai Yoshida , Nyamkhuu Ganbat , Takayuki Shimotomai , Taiga Yamamoto , Daisuke Sakurai , Naoki Hamada

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2022-02-25

This article presents our generative model for rhythm action games together with applications in business operations. Rhythm action games are video games in which the player is challenged to issue commands at the right timings during a music session. The timings are rendered in the chart, which consists of visual symbols, called notes, flying through the screen. We introduce our deep generative model, Gen\'eLive!, which outperforms the state-of-the-art model by taking into account musical structures through beats and temporal scales. Thanks to its favorable performance, Gen\'eLive! was put into operation at KLab Inc., a Japan-based video game developer, and reduced the business cost of chart generation by as much as half. The application target included the phenomenal "Love Live!," which has more than 10 million users across Asia and beyond, and is one of the few rhythm action franchises that has led the online era of the genre. In this article, we evaluate the generative performance of Gen\'eLive! using production datasets at KLab as well as open datasets for reproducibility, while the model continues to operate in their business. Our code and the model, tuned and trained using a supercomputer, are publicly available.

translated by 谷歌翻译

Shared Latent Space of Font Shapes and Their Noisy Impressions

Jihun Kang , Daichi Haraguchi , Seiya Matsuda , Akisato Kimura , Seiichi Uchida

分类：计算机视觉

2021-03-23

字体或字体的样式通常与特定印象相关联，例如沉重，当代或优雅。这表明字体形状与其印象之间存在某些相关性。要了解相关性，本文意识到附近嵌入了字体及其印象的共享潜在空间。难度是附着在字体上的印象词往往非常嘈杂。这是因为印象词是非常主观和多样化的。更重要的是，一些印象词与字体形状没有直接相关，并且会扰乱共享潜空间的实现。因此，我们使用DepeSets来增强形状相关的单词并在训练共享潜空间时自动抑制形状无关的单词。具有大型字体 - 印象数据集的定量和定性实验结果表明，所提出的方法的共享潜在空间适当描述了相关性，特别是对于形状相关的印象词。

translated by 谷歌翻译